library(ggplot2)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(plotly)
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
library(tidyr)
df<- read.csv("/home/joaolaf/Área de Trabalho/AD2/Lab1/dadosCEAP.csv")
df$valorGlosa <- as.numeric(sub(",", ".", df$valorGlosa, fixed = TRUE))
a <- df %>% group_by(sgPartido) %>%
summarise(qntPartido = n(), totalgasto= sum(valorLíquido))
Para responder essa primeira pergunta,teremos que consultar quantas vezes um dado número de partidos aparece na lista da CEAP, ou seja, a quantidade em que o nome do partido é listado, por qualquer que seja o serviço ou qualquer outro parâmetro presente na lista.
a<-a[!is.na(a$sgPartido),]
a<- a[order(a$qntPartido,decreasing = TRUE),]
a$indexQNT <- factor(a$sgPartido,levels = a$sgPartido)
p <- plot_ly(a, x = ~indexQNT, y = ~qntPartido, type = 'bar', name = 'Partidos por frequencia') %>%
layout(title = "Partidos por frequencia", xaxis = list(title = ""),yaxis = list(title = "Quantas vezes cada partido aparece"),barmode='stack')
p
Já quando se trata dos partidos que mai usam dinheiro, o gráfico não parece ter muita diferença. Apenas uma leve mudança entre um partido e outro, mas, certamente, os que mais usam são também os que mais gastam.
a <- a[order(a$totalgasto,decreasing = TRUE),]
a$indexGasto <- factor(a$sgPartido,levels=a$sgPartido)
p <- plot_ly(a, x = ~indexGasto, y = ~totalgasto, type = 'bar', name = 'Partidos por gasto') %>%
layout(title = "Partidos por gasto", xaxis = list(title = ""),yaxis = list(title = "Gasto de cada partido"),barmode='stack')
p
Para responder a segunda questão, vamos mostrar quantas vezes cada tipo de despesa aparece:
b<- df %>% group_by(tipoDespesa)%>%
summarise(quantasDespesas=n(),totalgastoDespesas = sum(valorLíquido))
p <- plot_ly(b,labels=~tipoDespesa,values=~quantasDespesas,type='pie') %>%
layout(title = 'Maiores despesas do CEAP',
xaxis = list(showgrid = FALSE, zeroline = FALSE, showticklabels = FALSE),
yaxis = list(showgrid = FALSE, zeroline = FALSE, showticklabels = FALSE))
p
Podemos ver no gráfico que: As duas maiores depsesas são: Emissão de Billhete Aéreo e Combustíveis e lubrificantes, 31.2% e 20.4% respectivamente
*As duas menores despesas são:Participação em curso,palesta ou evento similiare locação ou fretamento de embarcações,0.00675% e 0.00965% respectivamente*
Fazendo isso também em função dos gastos para cada tipo de despesa,podemos ver as três despesas que mais gastas e as três que menos gastam, que são:
b2<-b[order(b$totalgastoDespesas,decreasing = TRUE),]
#b4<-head(b2,3)
#b6<-tail(b2,3)
despesas_frame_gastos<- rbind(head(b2,3),tail(b2,3))
despesas_frame_gastos<- despesas_frame_gastos[order(despesas_frame_gastos$totalgastoDespesas,decreasing = TRUE),]
despesas_frame_gastos$indexDespesas <- factor(despesas_frame_gastos$tipoDespesa,levels = despesas_frame_gastos$tipoDespesa)
p <- plot_ly(despesas_frame_gastos, x = ~indexDespesas, y = ~totalgastoDespesas, type = 'bar', name = 'Partidos por gasto') %>%
layout(title = "Despesas por Gasto", xaxis = list(title = ""),yaxis = list(title = "Gasto a cada despesa"),barmode='stack')
p
Para a terceira questão, vamos agrupar os dados apenas pelos estados, já que os dados que tem os estados já é cada estado em que o parlamentar foi eleito
c<- df %>% group_by(sgUF)%>%
summarise(totalEstados = n())
Logo após isso, podemos visualizar as vezes que cada estado apareceu, mostrando exatamente o número de parlamentares que usam o CEAP no seu estado
c<-c[order(c$totalEstados,decreasing = TRUE),]
c$indexUF <- factor(c$sgUF,levels = c$sgUF)
p <- plot_ly(c, x = ~indexUF, y = ~totalEstados, type = 'bar', name = 'Chamadas do CEAP por estado') %>%
layout(title = "Chamadas do CEAP por estado", xaxis = list(title = "Estados"),yaxis = list(title = "Frequência dos estados"),barmode='stack')
p
## Warning: Ignoring 1 observations
Podemos perceber que SP é o extremo do gráfico, ficando como estado que mais aciona o CEAP. Já o estado do TO, fica em último lugar no gráfico
Podemos observar isso também do ponto de vista financeiro,separando os estados pela sua cota de valor líquido:
cGasto<- df%>%group_by(sgUF)%>%
summarise(totalEstadoLiquido = sum(valorLíquido))
E apresentamos os dados:
cGasto<-cGasto[!is.na(cGasto$sgUF),]
cGasto<-cGasto[order(cGasto$totalEstadoLiquido,decreasing = TRUE),]
cGasto$indexGasto <- factor(cGasto$sgUF,levels =cGasto$sgUF)
p <- plot_ly(cGasto, x = ~indexGasto, y = ~totalEstadoLiquido, type = 'bar', name = 'Gasto por estado') %>%
layout(title = "Gasto por estado", xaxis = list(title = "Estados"),yaxis = list(title = "Gastos"),barmode='stack')
p
Mas por que São Paulo apresenta uma diferença tão grande? Podemos mostrar em um gráfico que SP é o estado que tem mais parlamentares eleitos, operando o seguinte frame:
dfSP <- df %>% group_by(nomeParlamentar,sgUF) %>%
summarise()
Logo depois, podemos ver o número de parlamentares por cada estado
dfSP1 <- dfSP %>% group_by(sgUF) %>%
summarise(contaEstados = n())
dfSP1 <- dfSP1[!is.na(dfSP1$sgUF),]
dfSP1<- dfSP1[order(dfSP1$contaEstados,decreasing = TRUE),]
dfSP1$index_contaEstados <- factor(dfSP1$sgUF,levels = dfSP1$sgUF)
p <- plot_ly(dfSP1, x = ~index_contaEstados, y = ~contaEstados, type = 'scatter',mode='lines', name = 'Número de deputados por estado') %>%
layout(title = "Número de deputados por estado", xaxis = list(title = "Estados"),yaxis = list(title = "Número de deputados"),barmode='stack')
p
some
d<- df %>% group_by(nomeParlamentar,valorLíquido) %>%
summarise()
d$indexGasto <- factor(d$valorLíquido,levels =d$valorLíquido)
## Warning in `levels<-`(`*tmp*`, value = if (nl == nL) as.character(labels)
## else paste0(labels, : duplicated levels in factors are deprecated
d <- d[order(d$valorLíquido,decreasing = TRUE),]
d <- head(d,2)
p <- plot_ly(x = ~d$nomeParlamentar,y=~d$indexGasto, type="box")
p
Para responder a quinta questão, teremos que usar o conceito de correlação, onde vamos procurar saber se teremos uma correlação forte ou fraca entre os dados que iremos apresentar, que são: Quantidade de gastos no exterior e o valor restituído da CEAP
Podemos pegar esses dois valores agrupando pelos seguintes frames abaixo
gastosExt <- df %>% filter(tipoDocumento == 2) %>% group_by(sgUF) %>%
summarise(valorGastoExt = median(valorLíquido))
gastoLiq <- df %>% group_by(sgUF) %>%
summarise(valorGastoLiq = median(valorLíquido))
gastos_liq_exterior <-(inner_join(gastosExt,gastoLiq))
## Joining, by = "sgUF"
ggplot(gastos_liq_exterior, aes(x=valorGastoExt, y=valorGastoLiq)) +
geom_point(shape=1) +
geom_smooth(method=lm)
Já podemos ver pelo gráfico que a correlação de uma com a outra é bem baixa. Para confirmar isso, podemos mostrar pela função que mostra a correlação em números. Vendo que essa correlação é 0.01361584, temos que ela realmente é bem baixa.
correlacao <- cor(gastos_liq_exterior$valorGastoExt, gastos_liq_exterior$valorGastoLiq)
correlacao
## [1] 0.01361584